हमने देखा है कि एआई टेक्स्ट उत्पन्न करता है, फिर चित्र बनाता है और हाल ही में लघु वीडियो भी बनाता है, भले ही उन्हें अभी भी कुछ सुधार की आवश्यकता है। परिणाम अविश्वसनीय होते हैं जब आप सोचते हैं कि कोई भी वास्तव में इन टुकड़ों की निर्माण प्रक्रिया में शामिल नहीं है और इसे केवल एक बार प्रशिक्षित किया जाना है ताकि हजारों लोगों द्वारा स्थिर प्रसार जैसे उपयोग किया जा सके। फिर भी, क्या ये मॉडल वास्तव में समझते हैं कि वे क्या कर रहे हैं? क्या वे जानते हैं कि उन्होंने अभी जो तस्वीर या वीडियो बनाया है, वह वास्तव में क्या दर्शाता है? ऐसा मॉडल क्या समझता है जब वह ऐसी तस्वीर या उससे भी अधिक जटिल वीडियो देखता है? वीडियो में और जानें... (वीडियो में RTX GPU की सस्ता जानकारी भी है!) संदर्भ पूरा लेख पढ़ें: नी, बी, पेंग, एच।, चेन, एम।, झांग, एस।, मेंग, जी।, फू, जे।, जियांग, एस। और लिंग, एच।, 2022। सामान्य के लिए भाषा-छवि पूर्व प्रशिक्षित मॉडल का विस्तार वीडियो पहचान। arXiv प्रीप्रिंट arXiv:2208.02816. कोड: ►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!): https://www.louisbouchard.ai/सामान्य-वीडियो-पहचान/ https://github.com/microsoft/VideoX/tree/master/X-CLIP https://www.louisbouchard.ai/newsletter/ वीडियो प्रतिलेख 0:00 हमने एआई को टेक्स्ट जेनरेट करते देखा है 0:02 चित्र उत्पन्न करें और हाल ही में भी 0:05 लघु वीडियो उत्पन्न करें, भले ही वे 0:07 अभी भी काम की जरूरत है परिणाम हैं 0:09 अविश्वसनीय खासकर जब आप सोचते हैं 0:11 कि कोई भी वास्तव में इसमें शामिल नहीं है 0:13 इन टुकड़ों की निर्माण प्रक्रिया और यह 0:16 केवल तब तक एक बार में प्रशिक्षित किया जाना है 0:18 जैसे हजारों लोगों द्वारा उपयोग किया जाता है 0:20 स्थिर प्रसार अभी भी ये करते हैं 0:23 मोडल वास्तव में समझते हैं कि वे क्या हैं 0:25 क्या वे जानते हैं कि चित्र क्या है या 0:27 वीडियो उन्होंने अभी-अभी बनाया है 0:29 प्रतिनिधित्व करता है कि ऐसा मॉडल क्या करता है 0:31 ऐसी तस्वीर देखे तो समझो 0:34 या इससे भी अधिक जटिल वीडियो आइए ध्यान केंद्रित करें 0:36 दो और के अधिक चुनौतीपूर्ण पर 0:38 एआई वीडियो को कैसे समझता है, इसमें गोता लगाएँ 0:41 सामान्य वीडियो नामक कार्य के माध्यम से 0:44 मान्यता जहां लक्ष्य a . के लिए है 0:46 इनपुट के रूप में वीडियो लेने और उपयोग करने के लिए मॉडल 0:49 में क्या हो रहा है इसका वर्णन करने के लिए पाठ 0:51 वीडियो लेकिन पहले मुझे लगता है कि आप प्यार करेंगे 0:53 यह एपिसोड प्रायोजक और उनके पास क्या है 0:55 के लिए एक अद्भुत मुफ्त एआई कार्यक्रम की पेशकश करने के लिए 0:59 इस वीडियो में मैं स्केल ai के साथ साझेदारी कर रहा हूं 1:01 स्कैलिया इनमें से एक के पीछे की कंपनी है 1:04 दुनिया के अग्रणी एआई सम्मेलनों का रूपांतरण 1:07 x इस अक्टूबर 19 से 21वीं ट्रांसफॉर्मिक्स 1:11 20,000 से अधिक एआई और को एक साथ लाएगा 1:14 एमएल नेताओं दूरदर्शी चिकित्सकों और 1:16 उद्योगों में शोधकर्ताओं का पता लगाने के लिए 1:19 एआई और मशीन लर्निंग का संचालन 1:22 स्थानांतरण मिश्रण एक निःशुल्क आभासी घटना है और 1:24 कंपनियों के 120 स्पीकर होंगे 1:27 जैसे मेटा ओपनई डीपमाइंड गूगल ईटीसी 1:31 और भी बहुत कुछ मैं व्यक्तिगत रूप से सुनने के लिए उत्साहित हूँ 1:33 ग्रेग ब्रॉकमैन ओपनई के सह-संस्थापक से 1:36 और राष्ट्रपति और कोरी के वीपी 1:39 गहरे दिमाग में अनुसंधान और प्रौद्योगिकी दो 1:41 हमारे में सबसे महत्वपूर्ण कंपनियों में से 1:43 क्षेत्र भी वास्तव में होगा 1:45 शानदार से दिलचस्प वार्ता 1:46 फ्रेंकोइस जैसे क्षेत्र में योगदानकर्ता 1:49 शैले केरस के निर्माता कि मैं करूँगा 1:51 निश्चित रूप से ट्यून करें अपने को याद न करें 1:53 इस मुफ्त शिक्षा में भाग लेने का मौका 1:55 घटना यह पिछले साल एक बड़ी हिट थी और 1:58 आप के साथ गाना याद नहीं करना चाहते 2:00 में भाग लेने के लिए नीचे पहला लिंक 2:01 मेरे साथ ट्रांसफॉर्मिक्स सम्मेलन और 2:03 मेरे काम का समर्थन करें 2:06 सामान्य वीडियो पहचान 2:08 में सबसे चुनौतीपूर्ण कार्यों में से एक है 2:10 वीडियो को समझना फिर भी यह हो सकता है 2:13 किसी मॉडल की प्राप्त करने की क्षमता का सर्वोत्तम माप 2:15 क्या हो रहा है यह भी आधार है 2:17 a . पर निर्भर कई अनुप्रयोगों के पीछे 2:19 खेल जैसे वीडियो की अच्छी समझ 2:22 विश्लेषण या स्वायत्त ड्राइविंग लेकिन क्या 2:24 वहाँ इस कार्य को इतना जटिल बना देता है 2:27 दो चीजें हैं जिन्हें हमें समझने की जरूरत है 2:30 प्रत्येक फ्रेम या प्रत्येक का अर्थ क्या दिखाया गया है 2:33 एक विशेष वीडियो की छवि दूसरा हम 2:36 यह कहने में सक्षम होने की आवश्यकता है कि हम क्या 2:38 एक तरह से समझते हैं इंसान समझते हैं 2:41 जिसका अर्थ है सौभाग्य से शब्दों का उपयोग करना 2:44 हमें दूसरी चुनौती का सामना करना पड़ा है 2:46 भाषा समुदाय द्वारा कई बार 2:49 और हम उनके काम को और अधिक संभाल सकते हैं 2:51 ठीक हम वही ले सकते हैं जो लोग से 2:53 भाषा छवि क्षेत्र के साथ किया है 2:56 क्लिप या स्थिर जैसे मॉडल 2:58 प्रसार जहां आपके पास टेक्स्ट एन्कोडर है 3:01 और एक छवि एन्कोडर जो सीखता है 3:04 में दोनों प्रकार के इनपुट को एन्कोड करें 3:06 उसी तरह का प्रतिनिधित्व इस तरह आप 3:09 एक समान दृश्य की तुलना एक समान से कर सकते हैं 3:11 आर्किटेक्चर को प्रशिक्षित करके टेक्स्ट प्रॉम्प्ट 3:13 लाखों छवि कैप्शन उदाहरण के साथ 3:16 टेक्स्ट और इमेज दोनों वाले जोड़े 3:18 एक समान स्थान में एन्कोडेड शक्तिशाली है 3:20 क्योंकि इसमें बहुत कम जगह लगती है 3:22 संगणना करते हैं और यह हमें करने की अनुमति देता है 3:24 आसानी से अर्थ वाली छवियों से टेक्स्ट की तुलना करें 3:27 कि मॉडल अभी भी समझ में नहीं आता है 3:29 एक छवि या एक साधारण वाक्य भी लेकिन 3:32 यह कम से कम समझ सकता है अगर दोनों हैं 3:34 समान या नहीं हम अभी भी दूर हैं 3:37 बुद्धि लेकिन यह बहुत उपयोगी है 3:39 और ज्यादातर मामलों के लिए काफी अच्छा अब आता है 3:42 यहां सबसे बड़ी चुनौती के साथ वीडियो 3:44 और उसके लिए हम दृष्टिकोण का उपयोग करेंगे 3:47 बर्लिन मुझे और उनके सहयोगियों ने हाल ही में 3:49 कागज का विस्तार भाषा छवि 3:51 सामान्य वीडियो के लिए पूर्व-प्रशिक्षित मोडल 3:54 मान्यता वीडियो बहुत अधिक जटिल हैं 3:56 अस्थायी के कारण छवियों की तुलना में 3:58 सूचना का अर्थ है कई फ्रेम 4:01 और तथ्य यह है कि प्रत्येक फ्रेम जुड़ा हुआ है 4:03 अगले और पिछले एक के साथ 4:05 सुसंगत आंदोलन और कार्य मॉडल 4:08 यह देखने की जरूरत है कि इस दौरान पहले क्या हुआ था 4:10 और प्रत्येक फ्रेम के बाद एक उचित 4:13 दृश्य की समझ यह बस है 4:15 यूट्यूब की तरह आप वास्तव में 5 . को छोड़ नहीं सकते 4:18 आपके जैसे छोटे वीडियो में सेकंड आगे 4:20 इसमें बहुमूल्य जानकारी याद आएगी 4:23 मामले में वे प्रत्येक फ्रेम लेते हैं और उन्हें भेजते हैं 4:25 उसी छवि एन्कोडर में हम बस 4:27 एक दृष्टि ट्रांसफार्मर का उपयोग करके चर्चा की गई 4:30 उन्हें संसाधित करने के लिए आधारित वास्तुकला 4:32 ध्यान का उपयोग करते हुए एक संघनित स्थान यदि आप 4:35 दृष्टि से परिचित नहीं हैं 4:36 ट्रांसफार्मर या ध्यान तंत्र 4:39 मैं आपको वीडियो देखने के लिए आमंत्रित करूंगा I 4:40 एक बार आपके पास होने के बाद उनका परिचय दिया 4:43 प्रत्येक फ्रेम के लिए प्रतिनिधित्व जो आप कर सकते हैं 4:45 एक समान ध्यान-आधारित प्रक्रिया का उपयोग करें 4:47 प्रत्येक फ्रेम एक साथ संवाद करें और 4:50 अपने मॉडल को सूचनाओं के आदान-प्रदान की अनुमति दें 4:52 फ्रेम के बीच और एक फाइनल बनाएं 4:55 वीडियो के लिए प्रतिनिधित्व यह 4:57 फ्रेम के बीच सूचना का आदान-प्रदान 4:59 ध्यान का उपयोग किसी प्रकार के रूप में कार्य करेगा 5:02 आपके मॉडल को समझने के लिए स्मृति 5:04 एक जोड़े के बजाय एक पूरे के रूप में वीडियो 5:06 यादृच्छिक छवियां एक साथ अंत में हम उपयोग करते हैं 5:09 विलय करने के लिए एक और ध्यान मॉड्यूल 5:11 हमारे पास मौजूद फ़्रेमों की टेक्स्ट एनकोडिंग 5:14 हमारे संघनित वीडियो प्रतिनिधित्व 5:17 और वोइला यह एक तरह से एक है 5:20 निश्चित रूप से एक वीडियो को समझता है यह था 5:23 द्वारा इस महान पेपर का एक सिंहावलोकन 5:25 Microsoft अनुसंधान एक के रूप में कार्य कर रहा है 5:27 वीडियो पहचान का परिचय i 5:30 आपको उनके पेपर को पढ़ने के लिए आमंत्रित करते हैं a 5:32 उनके दृष्टिकोण की बेहतर समझ i 5:34 घोषणा करते हुए भी खुशी हो रही है 5:36 अगले nvidia gtc . के लिए एक और सस्ता 5:39 19 सितंबर से सितंबर तक की घटना 5:42 22वां एनवीडिया मुझे एक बार फिर दे रहा है 5:45 इसे देने के लिए rtx 3080 ti 5:48 आप में से उन लोगों के लिए समुदाय 5:50 घटना केवल दो चीजें जो आपको करनी हैं 5:53 जीतने का मौका पाने के लिए हैं 5:55 चैनल को सब्सक्राइब करें और मुझे डीएम करें 5:57 आपके द्वारा किए जाने वाले टोलों में से एक का स्क्रीनशॉट 5:59 कार्यक्रम के दौरान शामिल होने का फैसला 6:02 यह देखने के लिए धन्यवाद 6:04 मेरे दोस्तों को वीडियो और हार्दिक धन्यवाद 6:06 मुझे आशा है कि वीडियो को प्रायोजित करने के लिए स्केल एआई 6:09 वस्तुतः आपको उनके निःशुल्क कार्यक्रम में देखने के लिए 6:11 शीघ्र ही और मैं आपको अगले सप्ताह देखूंगा 6:13 एक और अद्भुत कागज के साथ [संगीत]